Word Segmentation
释义 Definition
“Word segmentation”指将连续的文本切分成一个个词(token)的过程,常见于自然语言处理(NLP)。在中文、日文等词与词之间通常没有空格的语言中尤其重要。(该术语在不同任务中也可能泛指“分词/切词/词切分”。)
例句 Examples
Word segmentation is a key step in Chinese text processing.
分词是中文文本处理中关键的一步。
Accurate word segmentation can improve downstream tasks such as search, machine translation, and named entity recognition.
高质量的分词能提升检索、机器翻译和命名实体识别等下游任务的效果。
发音 Pronunciation (IPA)
/wɝːd ˌsɛɡmənˈteɪʃən/
词源 Etymology
“Segmentation”源自拉丁语 segmentum,意为“切片、分段”,来自动词 secare(切割)。与“word”组合后,字面意思就是“把文本按词进行切分”,在计算语言学与信息检索领域中逐渐固定为术语。
相关词 Related Words
文学与著名作品 Notable Works
- Speech and Language Processing(Dan Jurafsky & James H. Martin):在分词/切分(含中文等语言场景)的章节与相关讨论中常出现该概念。
- Foundations of Statistical Natural Language Processing(Christopher D. Manning & Hinrich Schütze):涉及统计方法下的文本切分与相关建模思路(概念层面与分词密切相关)。
- Neural Machine Translation by Jointly Learning to Align and Translate(Bahdanau et al., 2014):虽更聚焦翻译,但在实际NMT管线中常与分词/子词切分一并讨论,语境中常出现“segmentation/word segmentation”等相关表达。